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摘要 数据 缺失 在 测验 中 经 常 发 生 ， 认 知 诊断 评估 也 不 例外 ， 数 据 缺 失 会 导致 诊断 结果 的 
偏差 。 首 先 ， 通 过 模拟 研究 在 多 种 实验 条 件 下 比较 了 常用 的 缺失 数据 处 理 方法 。 结 果 表 明 : 
中 缺失 数据 导致 估计 精确 性 下 降 ， 随 着 人 数 与 题目 数量 减少 、 缺 失 率 增 大 、 题 目 质量 降低 ， 


所 有 方法 的 PCCR 3 FIR, 


最 好 ， 其 次 是 MI，FIML £ 


最 好 ，MI 和 ZR 表现 不 稳定 。 其 次 ， 在 PISA2015 实证 数据 中 进一步 探索 了 不 同方 法 的 表 


现 。 综 合 模拟 和 实证 研究 结果 ， 推 荐 选用 EM 或 FIML 法 进行 缺失 数据 处 理 。 


关键 词 认 知 诊断 ，GDINA 
1 引言 


Bias 绝对 值 和 RMSE 均 上 升 。 包 估计 题目 参数 时 ，EM 法 表现 


0 ZR 法 表现 不 稳定 。@@ 估 计 被 试 知识 状态 时 ，EM 和 FIML 表现 


模型 ， 缺 失 数 据 ， 多 重 插 补 ， 极 大 似 然 估 计 


认 知 诊断 评估 (Cognitive Diagnosis Assessment, CDA) 是 最 新 一 代 的 心理 与 教育 测评 技术 ， 


可 以 对 个 体 认 知 过 程 、 加 工 技 能 或 知识 结构 进行 诊断 与 评 佑 。 在 CDA 实施 过 程 中 ， 无 法 


避免 出 现 数据 的 缺失 。 已 有 研究 表明 ， 随 着 数据 缺失 率 的 增 大 ， 题 目 参 数 的 估计 精度 及 被 
试 知识 状态 Knowledge State, KS) 的 判 准 率 均 会 下 降 ， 而 选用 不 同 的 缺失 值 处 理 方法 也 会 对 


模型 拟 合 与 参数 估计 带 来 不 同 影 响 (Dai, 2017; Pan & Zhan, 2020)。 因 此 ， 在 实际 CDA 测验 


中 需要 重视 缺失 数据 问题 ， 
HRT, SABES RES 


并 选用 合适 方法 处 理 ， 以 提升 诊断 精度 及 题目 参数 估计 精度 。 


替换 (Zero Replace, ZR) 方 法 。ZR 法 操作 便捷 
统计 软件 上 均 可 实现 ， 并 且 不 会 造成 被 试 的 大 量 流 失 。 因 此 ，ZR 是 研究 者 经 常 选用 的 方法 


之 一 ， 在 CDA 中 也 有 使 用 


较 多 大 型 教育 评估 ， 如 PISA, TIMSS, PIRLS 所 采纳 (Xiao & Bulut, 2020)。 虽 然 传 统 方法 


E 方 法 主要 包括 两 大 类 : 一 是 传统 处 理 方法 ， 如 具有 代表 性 的 零 
在 处 理 大 规模 数据 时 非常 快速 ， 在 绝 大 多 数 


CAryadoust & Goh, 2001; Lee et al., 2011) ， 且 ZR 方法 目前 被 
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比较 便捷 ， 但 会 导致 统计 效力 和 参数 估计 精度 的 下 降 ， 因 此 有 研究 者 并 不 建议 使 用 (Dong 
& Peng, 2013; Enders, 2010) 。 第 二 类 是 基于 模型 的 处 理 方法 ， 近 年 来 ， 随 着 统计 技术 不 断 
发 展 ， 基 于 模型 的 处 理 方法 相继 被 提出 ， 并 被 证 明 其 处 理 效果 优 于 传统 方法 ， 因 此 这 些 方 


法 越 来 越 受 到 重视 。 其 中 ， 极 大 似 然 估计 (Maximum Likelihood Estimation, MLE) 和 


MI(Multiple Imputation, MD) 方 法 的 应 用 最 广泛 (Rotnitzky, 2008; Schafer & Graham, 2002). 


MLE 是 通过 加 工 似 然 函 数 对 缺失 数据 进行 处 理 ， 包 括 期 望 最 大 化 算法 (Expectation- 


Maximization algorithm, EM) 和 全 息 极 大 似 然 估计 方法 (Full Information Maximum Likelihood, 


FIML)。 对 于 FIML、EM 和 MI 三 种 方法 ， 均 有 研究 证 明 其 表现 优 于 传统 方法 (Graham， 


2009; Jeličić et al., 2010;Van Buuren, 2018 ;Wothke, 2000)。 本 文 所 采用 方法 的 具体 介绍 请 参 


见 2.2 部 分 

CDA 中 探讨 缺失 值 及 其 处 理 的 研究 中 ， 一 部 分 研究 者 仅 探讨 了 缺失 数据 对 诊断 结果 的 
影响 ， 如 Xu 和 von Davier(2006) 的 研究 表明 : 当 数 据 缺 失 率 达 50% 时 ， 认 知 诊断 模型 仍 能 
= 得 到 较 好 的 估计 结果 。 但 该 研究 未 考虑 不 同 的 缺失 机 制 ， 且 仅 考 虑 了 缺失 数据 对 参数 估计 
" 1 影响 而 未 考虑 缺失 数据 处 理 方法 本 身 对 结果 产生 的 影响 。Pan 和 Zhan(2020) 在 纵向 诊断 
= 中 探讨 了 缺失 数据 对 诊断 精度 的 影响 ， 也 得 到 相似 的 研究 结果 。Dai(2017) 首 次 探讨 了 不 同 
c 的 缺失 值 处 理 方法 在 CDA 中 的 表现 ， 作 者 在 DINA(Deterministic Inputs, Noisy “and” Gate) 
模型 Junker & Sijtsma, 2001) 基 础 上 ， 比 较 EM 和 一 些 传统 方法 的 表现 ， 结 果 表 明 : 在 估计 
被 试 KS 时 ，EM 在 多 数 条 件 下 表现 较 好 ; 在 题目 参数 估计 时 ，EM 和 传统 方法 的 表现 随 条 
件 改变 而 各 不 相同 。 

尽管 已 有 上 述 文献 研究 了 CDA 中 的 缺失 数据 问题 ， 但 过 往 研 究 首先 未 曾 考虑 在 缺失 
数据 分 析 领 域 中 表现 较 好 、 应 用 广泛 的 MI 和 FIML 方法 。 其 中 ，MI 法 已 被 证 明 其 表现 较 
为 优异 和 稳健 (Van Buuren, 2018; Schafer & Graham, 2002)， 且 于 近年 来 被 广泛 用 于 缺失 数据 


的 处 理 中 (Leacy et al., 2017; Rezvan et al., 2015). FIML 采用 “一 步 式 ”操作 ， 直 接 使 用 带 
缺失 值 的 作答 数据 进行 模型 拟 合 ， 比 其 它 基 于 模型 的 方法 更 便捷 (Graham, 2009; Schafer & 
Graham, 2002)， 此 外 ， 基 于 模型 的 方法 表现 更 加 出 色 ， 但 在 不 同 研究 背景 下 的 表现 有 较 大 
差异 ， 取 决 于 具体 的 模型 、 数 据 和 条 件 (Newman, 2003; Dai, 2017)。 因 此 ， 有 必要 在 CDA 
中 系统 地 探索 这 些 基 于 模型 方法 的 表现 ， 并 与 传统 方法 进行 比较 。 

基于 系统 全 面 比 较 缺 失 值 处 理 方法 这 一 主旨 ， 本 研究 还 做 了 如 下 推进 : GDDai(2017) 采 
用 的 DINA 属于 简约 模型 ， 它 的 非 补 偿 模 型 特点 往往 与 现实 测验 情景 不 符 。 而 饱和 模型 ， 


如 GDINA(Generalized Deterministic Inputs, Noisy “and”Gate) 模 型 (de la Torre, 2011) 等 受到 了 


较 多 关注 ， 并 应 用 于 多 数 研究 中 (Bai, 2020; 高 旭 亮 等 , 2018), GDINA 不 仅 包含 属性 主 效应 ， 
还 将 属性 间 交 互 作用 考虑 在 内 ， 更 加 符合 现实 情况 ， 对 实际 测验 拟 合 更 佳 ， 对 GDINA 及 
DINA 模型 的 介绍 及 含义 参见 2.1 部 分 。 包 现 有 诊断 测验 中 比较 缺失 数据 处 理 方法 的 研究 仅 
使 用 了 模拟 研究 ， 但 模拟 研究 的 生态 效 度 如 何 并 未 在 实证 数据 中 得 到 检验 ， 因 此 结果 是 否 
能 进一步 推 至 实际 情况 有 待 进一步 验证 。@ 除 了 MI 和 FIML， 本 文 还 选取 了 传统 方法 中 具 


有 代表 性 的 ZR 法 ， 以 及 插 补 后 可 以 得 到 无 偏 估计 结果 且 在 处 理 CDA 及 其 它 测验 类 型 的 数 


据 缺 失 值 时 ， 表 现 较为 优异 的 EM 方法 (Dai. 2017; Newman, 2003; Rasmussen, 2007). 

综 上 ， 本 研究 的 主要 目的 是 将 MIU MLE 法 引入 CDA 中 ， 对 不 同 缺 失 数据 处 理 方法 
进行 全 面 比较 ， 并 提出 实践 中 处 理 缺 失 数据 的 建议 。 下 文 首先 对 认 知 诊断 模型 和 各 缺失 数 
据 处 理 方法 进行 简单 介绍 。 其 次 ， 通 过 模拟 研究 ， 在 不 同 实验 条 件 下 探究 了 各 缺失 数据 处 
理 方法 的 表现 。 第 三 ， 以 PISA2015 年 基于 计算 机 测评 中 的 数学 素养 为 例 ， 比 较 不 同 缺 失 
数据 处 理 方法 在 实证 数据 中 的 效果 ， 验 证 不 同方 法 的 生态 效 度 。 最 后 ， 我 们 讨论 了 研究 结 
果 及 未 来 研究 的 发 展 方向 。 

2 认 知 诊断 模型 及 缺失 数据 介绍 
2.1 认 知 诊断 模型 


本 研究 所 采用 的 诊断 模型 为 GDINA， 其 表达 形式 见 公 式 (1): 


= *Y- Kj Kj Kj-1 Ki 
P(Y; = 1|a7;) = ĉjo + Dii jn Lik + 20 pad Dra Ô ikk Qik ain oP n p, Ia Gik (1) 


pe 在 GDINA 模型 中 ， 被 试 在 每 道 题目 上 被 归 为 2S 个 潜 类 别 ， 其 中 K; =% qo ER 


题目 /所 考察 的 属性 数量 ，qj=1 表示 题目 j 考察 了 属性 ke a = (eus yey) NEE BOA 


r 


PETA Gi; = (ai. T aijr, ) 基 础 上 ， AAR PA H 所 考察 属性 ， JÉ FEES] 3 ES (collapse) Jas VE [nj 


量 (K 为 测验 考察 的 所 有 属性 个 数 )。6jo 为 题目 7 的 截 距 项 ， 即 当 被 试 未 掌握 题目 所 考察 属 
性 时 正确 作答 的 基线 参数 。6 为 属性 的 主 效应 ， 表 示 当 被 试 仅 掌握 菜 一 属性 时 ， 对 正 
外 作答 概率 的 影响 。6j 是 题目 /在 属性 和 上 的 二 阶 交互 效应 ， 表 示 同时 掌握 两 个 属性 


= 


0 


对 正确 作答 概率 的 影响 。6j1,.x; 为 题目 j 在 属性 1, 2,..., K; EB st TAE AE, do SEI 


1 

T 
> 
X 


了 题目 7 考察 的 所 有 属性 时 ， 对 正确 作答 概率 的 影响 。 其 中 ， 截 距 项 6jo 衡 为 非 负数 ， 主 
应 项 为 非 负 数 ， 而 交互 作用 项 可 以 取 任 意 值 。 


GDINA 模型 属于 饱和 模型 ， 对 GDINA 进行 约束 ， 即 仅 保 留 公 式 (1) 中 的 截 距 项 和 


最 高 阶 交 互 项 ， 便 可 得 到 DINA qum. P(Y; = 1|a;;) = ĉjo + Ôj, K? "A Qiko。 Z 含义 为 : 


当 且 仅 当 被 试 1 掌 握 了 题目 j 考核 的 所 有 属性 时 ， 该 被 试 倾向 于 答对 这 道 题目 ， 而 当 被 试 i 
未 掌握 题目 j 考核 的 所 有 属性 时 ， 即 认为 该 被 试 倾向 于 答 错 这 道 题目 。 

缺失 数据 机 制 介绍 

缺失 数据 可 以 通过 缺失 机 制 进行 分 类 ，Rubin(1976) 定 义 了 三 种 缺失 的 数据 机 制 ， 完 全 


随机 缺失 (missing completely at random, MCAR)， 随 机 缺失 (missing at random, MAR) 和 非 随 


2. 


N 


机 缺失 (missing not at random, MNAR)» 7E MCAR 机 制 下 ， 数 据 的 缺失 是 完全 随机 的 ， 不 依 
赖 于 任何 变量 ， 即 不 论 其 它 变 量 〈 如 题目 难度 、 区 分 度 、 被 试 能 力 值 等 ) 如 何 变化 ， 数 据 
产生 缺失 的 概率 都 是 均等 的 ， 在 MAR 机 制 下 ， 数 据 缺 失 的 概率 并 不 是 随机 的 ， 会 受到 数 
据 集中 已 观测 到 的 、 不 含 缺 失 值 的 变量 〈 如 被 试 年 龄 、 能 力 值 等 ) 的 影响 ， 但 不 受 缺失 数 
据 自身 的 影响 ， 在 MNAR 机 制 下 ， 数 据 缺 失 的 概率 与 缺失 变量 本 身 相 关 ， 如 某 一 问题 设计 
的 过 于 敏感 造成 的 缺失 。 

o 在 心理 教育 测评 中 ， 这 三 种 缺失 数据 的 机 制 都 有 可 能 存在 。Huisman 和 Molenaar(2001) 
认为 ， 测 评 中 缺失 的 作答 是 由 学 生 无 意 中 报 告 的 ， 因 此 将 测评 中 的 缺失 数据 视 为 MCAR 机 
出 下 的 缺失 ， 还 有 研究 者 假设 测评 中 存在 MAR 机 制 ， 因 为 数据 的 缺失 与 特定 的 个 体 特征 


E 


有 关 (De Ayala el al., 2001; Finch, 2008) ;还 有 研究 表明 在 茶道 题目 上 数据 的 缺失 是 受到 题目 


本 身 特征 的 影响 ， 即 存在 MNAR 缺失 机 制 (Brown et al., 2014). 
© 2.3 缺失 数据 的 处 理 方法 
= 依据 前 文 综述 ， 本 研究 选取 了 常见 且 被 广泛 使 用 的 传统 方法 ZR 法 (Aryadoust & Goh, 


© 2001; Lee et al., 2011)。 基 于 模型 的 缺失 数据 处 理 方法 中 应 用 最 为 广泛 (Rotnitzky, 2008; 


Schafer & Graham, 2002; Leacy et al., 2017; Rezvan et al., 2015)， 处 理 缺 失 值 效果 更 具 优 势 


(Rasmussen, 2007; Graham, 2009; Jeličić et al., 2010; Wothke, 2000) 并 且 适 用 于 二 分 变量 插 补 
(Marshall et al., 2010; Van Buuren, 2018) 的 MI-PMM、MI-CART、MI-LOGREG.BOOT、EM 
和 FIML 这 几 种 方法 。 
2.3.1 零 蔡 换 (ZR) 

零 蔡 换 ， 即 将 缺失 的 作答 视 为 错误 回答 ， 用 “0” 值 替换 缺失 数据 。 再 将 替换 好 的 完整 
数据 集 输入 模型 ， 进 行 分 析 。 
2.3.2 多 重 插 补 (MI) 


多 重 插 补 (Rubin, 1976) 是 一 种 基本 


t 


lirli 


E 复 模拟 的 缺失 数据 处 理 方法 ，MI 包括 三 个 步 又 : 


插 补 (imputation)、 分 析 (analysis) 和 合并 (pooling)。 首 先 ，MI 依据 具体 的 插 补 模型 (MI-PMM、 
MI-CART、MI-LOGREG.BOOT) 对 缺失 数据 进行 多 次 插 补 ， 最 终 得 到 多 个 经 插 补 后 的 完整 
数据 (最 好 是 20 个 或 更 多 ; Graham et al., 2007) 。 然 后 依照 模型 〈 如 线性 模型 、 广 义 线性 
模型 等 ) 对 这 20 或 更 多 个 完整 数据 集 进行 分 析 ， 依 据 Rubin 规则 计算 各 完整 数据 的 参数 估 
计 值 ， 最 后 将 参数 估计 最 佳 的 插 补 结果 输出 (Mazza et al., 2015) 。 最 终 输出 的 插 补 结果 将 
作为 完整 数据 集 输入 模型 ， 进 行 分 析 。 

由 于 本 研究 考虑 的 是 二 级 计 分 形式 ， 且 有 具备 局 部 独立 性 ， 因 此 在 使 用 MI XE kE E 
进行 插 补 时 ， 分 别 选择 各 插 补 模型 对 数据 进行 多 次 插 补 (n-200 ， 并 从 插 补 好 的 数据 集中 
随机 抽取 一 个 完整 数据 集 作 为 插 补 结果 。MI 系列 方法 中 的 分 类 回归 树 方法 (Classification 


and regression trees, MI-CART)、 预 测 均值 匹配 (Predictive mean matching, MI-PMM) fI Ej H) EE 


率 对 数 回归 (Logistic regression with bootstrap, MI-LOGREG.BOOT) 均 适用 于 二 分 变量 插 补 ， 


日 在 处 理 缺 失 数据 时 表现 较 好 (Marshall et al., 2010; Van Buuren, 2018)， 因 此 本 研究 主要 选 


择 了 这 三 种 MI 模型 。MI 系列 方法 的 具体 公式 和 详细 操作 步骤 可 参见 Van Buuren(2018) 书 
中 的 具体 介绍 ， 下 面 对 各 方法 原理 与 基本 步 又 进行 介绍 。 

(1) MI-PMM: PMM 即 预测 均值 匹配 ， 它 根据 指定 的 回归 模型 计算 缺失 值 的 预测 值 ， 
从 而 进行 播 补 。 已 知 了 为 作答 矩阵 ， 记 7 为 删除 了 中 作答 存在 缺失 值 的 被 试 后 ， 由 所 有 不 
含 缺失 值 被 试 的 作答 数据 构成 的 矩阵 。PMM 大 致 步骤 如 下 : 1) 使 用 Y HS, S EB 
日 模型 ， 估 计 得 到 回归 参数 。2) 对 第 一 步 中 得 到 的 回归 参数 进行 修正 ， 得 到 一 个 适用 于 了 
中 所 有 被 试 的 回归 模型 ， 并 使 用 这 一 回归 模型 计算 出 所 有 被 试 的 估计 值 。3) 针对 每 一 个 存 
在 缺失 数据 的 被 试 ， 匹 配 多 个 估计 值 与 其 估计 值 近似 且 不 含 缺失 数据 的 被 试 ， 构 成 捐赠 者 
库 ， 从 捐赠 者 库 中 随机 抽取 数值 蔡 换 缺失 数据 ， 实 现 对 缺失 数据 的 插 补 。 此 方法 假设 缺失 
值 的 分 布 与 候选 数据 集 相同 ， 并 使 用 已 有 数据 中 非 缺 失 部 分 对 缺失 值 进行 插 补 ， 从 而 避免 
了 无 意义 插 补 的 问题 (例如 ， 身 高 为 负 值 )(Van Buuren, 2018). 

(2) MI-CART: CART 即 分 类 回归 树 ， 是 一 种 回归 与 分 类 技术 。 该 方法 一 般 使 用 递归 
划分 法 构建 预测 模型 ， 将 待 处 理 的 所 有 变量 划分 为 尽 可 能 同 质 的 类 别 ， 最 终 形成 决策 树 ， 
并 从 与 缺失 作答 相似 的 节点 中 随机 抽取 完整 作答 ， 对 缺失 数据 进行 插 补 。 其 操作 步骤 如 下 : 
1) 使 用 递归 法 对 作答 矩阵 中 的 数据 进行 多 次 切 分 ， 模 型 将 选择 具有 最 佳 分 裂 和 最 均匀 子 群 
的 切 分 点 作为 最 佳 切 分 点 ， 将 数据 切 分 为 两 个 子 节点 。2) 多 次 重复 第 一 步 ， 直 至 数据 不 可 
再 分 。 此 时 ， 每 一 个 子 节点 下 的 数据 均 同 质 ， 经 切 分 得 到 的 结果 即 为 作答 矩阵 的 分 类 回归 
树 。3) 对 每 一 个 缺失 作答 ， 根 据 分 类 回归 树 找到 它 所 属 的 终端 节点 ， 并 从 该 节点 中 随机 抽 
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取 作 答对 缺失 数据 进行 插 补 。 

(3) MI-LOGREG.BOOT: 该 方法 使 用 基于 Bootstrap 的 贝 叶 斯 逻辑 回归 模型 对 缺失 数 
据 进行 插 补 。Bootstrap 法 的 原理 是 以 样本 代表 总 体 ， 在 样本 中 进行 有 放 回 抽样 ， 每 次 重复 
抽取 7 个 数据 组 成 一 个 样本 ， 重 复 这 一 过 程 多 次 得 到 多 个 样本 ， 最 后 基于 这 些 样本 进行 统 
计 计 算 。MLLOGREG.BOOT 通过 贝 叶 斯 逻辑 回归 模型 进行 ， 对 经 bootstrap 法 处 理 后 的 作 


答 和 矩阵 进行 回归 分 析 ， 通 过 计算 和 比较 拟 合 所 得 参数 ， 选 取 拟 合 结果 最 佳 的 数据 对 缺失 值 


进行 插 补 (Van Buuren, 2018). 


2.3.3 期 望 最 大 化 算法 (EMD) 

EM 算法 是 一 种 通过 计算 极 大 似 然 对 缺失 进行 处 理 的 迭代 算法 (Dempster et al., 1977). 
此 方法 原理 是 认为 存在 一 个 估计 参数 ， 与 缺失 数据 相关 且 可 以 互相 推导 。 因 此 给 定 估 计 参 
数 的 初始 值 ， 即 可 以 通过 不 断 迭 代 对 缺失 数据 进行 插 补 。 每 一 次 迭代 包括 了 E 步 和 M 步 。 
E 步 即 期 望 步 ， 依 据 现 有 数据 和 前 一 次 迭代 所 得 到 的 估计 参数 ， 对 缺失 数据 进行 填补 ， 并 
计算 其 对 数 似 然 函数 的 条 件 期 望 ，M 步 即 极 大 化 步 ， 用 极 大 化 对 数 似 然 函 数 进一步 确定 估 
WER, FAT RAR. HAE E OAM 步 之 间 不 断 迭 代 ， 直 至 两 次 迭代 之 间 的 
参数 变化 较 小 时 结束 ( 叶 素 静 等 , 2014). EM 的 具体 公式 和 详细 操作 步骤 可 以 参考 Dempster 
等 (1977) 研 究 中 的 有 具体 介绍 ， 下 面 对 其 原理 与 基本 步骤 进行 介绍 。 定 义 Yops 为 已 观测 到 的 、 
未 缺失 的 数据 ， 定 义 Frizs 为 缺失 数据 ， 则 含有 缺失 数据 的 作答 矩阵 Y= (Yous Ymis) > EM 
法 就 是 使 用 待 估 参 数 9 和 Y。ss， 对 Ys 进行 插 补 。EM 方法 在 CDA 中 的 实现 过 程 为 : 

1) 首先 给 定 参 数 9 的 初始 值 ，9 是 一 系列 用 于 定义 了 分 布 的 参数 合集 。 例 如 通过 定义 均 
值 和 方差 假设 作答 和 矩阵 了 为 正 态 分 布 ， 则 此 时 初始 估计 参数 9 可 记 作 : 6-(u, 07). 

2) 卫 步 : 对 于 Yis 中 的 任 一 缺失 数据 y;， 使 用 第 一 步 给 定 的 9 和 Y66bs， 计 算 Yps 的 条 件 
期 望 值 ， 并 用 这 一 期 望 值 代 蔡 缺失 数据 ， 如 公式 CD) 所 示 。 其 中 ?为 被 试 ，/ 为 题目 ，1 为 从 
代 次 数 。 


yf = ECV ons, 9) (2) 


3)M 步 : 使 用 似 然 函 数 Q 与 经 卫 步 处 理 后 的 作答 矩阵 y, 计算 最 大 似 然 的 参数 估计 值 ， 
如 公式 G) 所 示 ， 并 选取 满足 最 大 似 然 值 的 参数 值 06， 作 为 新 一 轮 欠 代 中 的 参数 估计 值 。 
Q(0G+1)|g(), Y) = max (Q(0|0 2, Y)) Q) 
4) 不 断 重 复 步 又 2-3 直到 参数 估计 结果 收敛 ， 例 如 前 后 两 次 迭代 之 间 参 数 估 计 的 变化 


量 : ||Q(0D|6©, v) — OIEI, Y pa i. (如 .0001) 。 


同 MI 法 相同 ， 将 EM 处 理 后 的 完整 数据 集 输入 模型 ， 进 行 后 续 的 分 析 。 
2.4.4 全 晨 极 大 似 然 估计 算法 (FIML) 

与 删除 方法 不 同 ，FIML 不 排除 缺失 作答 的 情况 。 包 括 不 完整 案例 的 观察 分 数 可 以 提 
高 准确 性 ， 因 为 不 完整 变量 与 其 他 《完整 或 不 完整 ) 变量 之 间 的 关联 会 告知 估计 程序 哪些 
参数 值 最 有 可 能 (Mazza et al., 2015) . FIML 使 用 缺失 数据 中 所 有 的 可 用 数据 建立 模型 ， 
并 运用 似 然 函 数 估计 参数 ， 对 缺失 数据 进行 处 理 (Eekhout et al., 2015)。 例 如 ， 在 运用 FIML 
方法 对 包含 缺失 值 的 数据 进行 题目 参数 估计 时 ， 其 似 然 函数 的 计算 只 连 乘 在 该 题目 上 有 作 
答 的 数据 的 正确 作答 概率 值 ， 而 未 作答 的 数据 不 参与 计算 。 不 同 于 其 它 方 法 需要 先 插 补 再 
估计 ，FIML 仅 需要 一 步 ， 就 可 以 同时 实现 缺失 数据 处 理 和 参数 估计 过 程 ， 因 此 更 加 高 效 
(Graham, 2009)。 不 同 于 以 上 几 种 方法 ， 在 本 研究 中 ， 使 用 R 中 的 GDINA 包 进 行 FIML 方 
法 的 处 理 ，FIML 方法 为 GDINA 包 的 默认 处 理 缺 失 值 方法 ， 即 当 输 入 的 作答 矩阵 为 包含 缺 
失 数 据 的 矩阵 时 ， 软 件 默 认 使 用 FIML 方法 进行 处 理 和 模型 的 分 析 。 
3 模拟 研究 
3.1 研究 设计 

为 了 充分 探讨 不 同 缺失 数据 处 理 方法 在 CDA 中 的 表现 ， 本 研究 引 
6 的 完全 交叉 实验 设计 ， 共 包含 六 个 自 变 量 ， 其 设置 如 下 所 示 : 


CD 被 斌 数量: 包括 三 个 水 平 ，200 A. 400 人 和 1000 A (Dai, 2017; de la Torre, 2011); 


Ñ 
R 


12X3X3X3X3X 


(2) 题目 数量 : 包括 两 个 水 平 : 15 题 和 30 ji (Dai, 2017); 
(3) 题目 质量 : 参照 Ma 等 人 (2016) 的 设置 包含 三 个 水 平 : 高 质量 、 中 等 质量 和 低 质 


量 。 题 目 为 低 质 量 时 ， 参 数 设 定 为 : P(Yjy=1 


aj = 0) € U(0.05,0.15) ， 


P(Y; —-1|aj = 1) € U(0.85,0.95); 题目 为 中 等 质量 时 ， 参 数 设 定 为 : P(Y; = 1|oj = 0) € 


U(0.15,0.25), P(¥,; =1 


a; = 1) € U(0.75,0.85); 题目 为 高 质量 时 ， 参 数 设 定 为 : 


aij = 0) 


P(Y; = 1|a;; = 0) € U(0.25,0.35), P(Y; = 1|a; = 1) € U(0.65,0.75). P(Y; =1 
表示 被 试 ; 未 掌握 题目 7 考察 的 所 有 属性 时 ， 答 对 题目 的 概率 。P(Yr = l|a; = 1) 表 示 被 试 
i 掌握 了 题目 j 考 察 的 所 有 属性 时 ， 答 对 题目 的 概率 。 其 中 ，Y;j 为 被 试 i 在 题目 i 上 的 作答 


情况 ，@ajj 为 在 被 试 原 属性 向 量 基础 上 ， 仅 保留 题目 j 所 考察 属性 形成 的 坊 塌 属性 向 量 。 


a 


(4) 数据 缺失 机 制 : 包括 三 种 缺失 机 制 : MCAR. MAR 和 MNAR(De Ayala, 2001; 
Finch, 2008); 


C50 数据 缺失 率 : 包括 三 个 水 平 : 10%、20%、30%(Dai, 2017); 


(6) 缺失 数据 处 理 方 法 : ZR. MI-CART. MI-PMM, MI-LOGREG.BOOT. EM 和 


FIML 方法 ; 
EF, Q 矩阵 设 定 参见 附录 一 。 
3.2 模拟 过 程 


(1) 完整 数据 生成 : 被 试 KS AMS TESS A PER, Bla-MVN(0,,X). HA 
差 设 定 为 0.5( 如 下 所 示 )。 被 试 作答 数据 使 用 R 软件 中 GDINA 包 的 simGDINA O K 2% #E EX 


(Ma & de la Torre, 2020)。 
T uc 25 
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(2) 缺失 数据 生成 : 缺失 数据 的 生成 参考 De Ayala 等 (2001) 和 Finch(2008) 提 出 的 方法 ， 
人体 的 生成 过 程 参 见 附录 二 。 

(3) 缺失 数据 处 理 : 使 
现 。MI 方 法 使 用 了 及 软件 中 的 MICE 包 (van Buuren & Groothuis-Oudshoorn, 2011) 完 成 。 为 了 
保证 处 理 效果 ， 参 照 Chen 等 (2020) 的 研究 将 MI 插 补 次 数 设 定 为 20 次 。 其 次 ， 在 使 用 EM 
方法 插 补 缺失 数据 时 ， 我 们 首先 采用 了 R 软件 中 TestDatalmputation 包 中 的 EMimpute 函数 ， 
但 在 数据 规模 大 、 缺 失 比例 较 高 〈 例 : 1000 A. 30 题 、30% 缺 失 率 ) FPF, R 软件 无 法 运行 。 


jun 


tT 


用 R 软件 与 SPSS26.0 实现 。 首 先 ，ZR 法 通过 自 编 R 代码 实 


因此 ， 最 终 选 用 了 SPSS26.0 进行 EM 插 补 处 理 。FIML 方法 通过 及 软件 中 的 GDINA 包 完 
成 。 
3.3 评价 指标 


参数 估计 精度 评价 指标 为 偏差 Bias、 均 方 根 误差 RMSE(Ma & de la Torre, 2016)， 计 算 


见 公 式 (2) 和 公式 (3)。 
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Bias = 4 
Jx2*xR (A) 
R 2k J Par) _ (r) _ 2 
P ees al eee lla) - 
E Jx2*xR 


Ep, Py, =lla,) 表示 KS Ha, 的 被 试 答对 第 / BH Hit TE SMR, 


PPY, 21|a,) RR KS 为 ,的 被 试 答对 第 j 题 的 真实 作答 概率 ，R 表示 总 循环 次 数 ，7 


表示 当前 循环 次 数 。Bias 和 RMSE 越 大 ， 表 明 题 目 参数 估计 误差 越 大 。 


被 试 属性 掌握 的 估计 精度 评价 指标 采用 模式 判 准 率 (Pattern Correct Classification Rate, 


PCCR)， 计 算 见 公式 (4)。 
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3.4 模拟 研究 结果 和 讨论 


由 于 MAR 与 MCAR HL iti 


3.4.1 MAR 机 制 的 结果 和 讨论 


C1) 题目 


参数 估计 结果 与 讨论 


pa 


1 和 


2 呈现 了 MAR 机 制 下 


量 和 题目 


数量 的 增多 ， 


题目 


质量 的 提 


I 下 的 结果 基本 相同 ， 送 


RxI 


GH, 为 被 试 总 数 ， pmz, =1 表 示 第 7 次 循环 中 被 试 的 KS 判断 正确 ， 


题目 参数 的 估计 结果 ， 
高 和 缺失 率 的 降低 ， 


(6) 


反之 表示 判断 


将 MCAR 的 结果 呈现 于 附录 三 。 


共 包 含 324 个 条 件 。 随 被 试 数 


题目 参数 估计 精度 在 提升 。 


整体 来 看 ， 题 目 参 数 的 估计 偏差 均 较 低 ， 各 方法 表现 均 较 好 。 其 中 ，EM 法 的 表现 最 


好 ， 


0.003~0.001 , 


RMSE 2) 


0.0001~0.008; RMSE 分 布 范围 
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其 后 依次 为 MI、 


FIML 和 ZR 法。 


非常 接近 0; RMSE 分 布 范 
MI 也 倾向 于 产生 无 偏 估 计 ， 但 其 


ri yi El A 0.013~0.101 。 


为 - 0.019~ - 0.003， 均 小 于 0; RMSE 分 布 范 


和 MI 处 理 缺 失 数据 后 估计 得 
为 其 中 最 大 的 Bias 绝对 值 及 RMSE 值 
这 些 方法 处 理 缺 失 数 据 均 能 够 得 到 较为 理想 的 题目 参数 估计 精度 。 其 次 ， 


对 而 言 略 差 ， 因 


方法 的 Bias 和 RMSE 相似 性 较 高 ， 因 此 车 要 选用 MI 方法 ，MI 系列 


到 的 题目 


参数 精度 最 高 ， 但 


后 ， 被 试 数 量 


al 


Fa F. F: 
能 是 基 


的 原因 可 
规模 越 大 ， 就 越 


因此 ， 


越 多 ， 
表明 与 传统 插 补 方法 相 比 ， 基 于 模型 的 方法 更 适合 


HK 


题目 质量 越 高 ， 基 了 


于 模型 
能 从 已 有 的 作答 数据 中 获得 有 效 信息 
而 ZR 法 将 未 作答 信息 全 
中 的 噪音 ， 扭 曲 真实 数据 结构 ， 当 数据 集 越 大 ， 其 噪音 也 就 越 大 ， 最 终 导致 估计 精度 下 降 。 
在 测验 尤其 是 大 规模 测验 中 ， 应 该 使 用 基于 模型 的 扣 


得 估计 结果 更 好 。 


2 的 方法 使 用 了 数据 


EM 倾向 于 产生 无 偏 估计 ， 


H Bias 值 分 布 范 围 为 - 


Bi 


x T 
BR, 


围 为 0.025-0.105. 


围 为 0.014~0.100， 是 所 有 处 理 方 法 中 值 最 小 的 。 
LIGA EM, F 
FIML 倾向 于 高 估 题 目 


为 0.013~0.113 。ZR 倾向 于 低估 题目 


ias 分 布 范 围 为 - 0.003~0.001, 
Bias 值 分 布 范围 为 - 
参数 ， 其 Bias 值 分 布 范 


首先 ， 不 难看 
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模型 的 方法 


E: 


表现 越 好 ， 而 ZR 的 表现 则 相反 。 


余 方法 的 表现 也 不 差 ， 仅 是 相 
结果 表明 ， 
MI 系列 中 的 三 种 
的 任 一 方法 均 可 。 


0.019 和 0.113。 这 一 


最 
这 


于 规模 较 大 的 测验 情景 。 
未 缺失 的 作答 信息 进行 建 模 ， 数 据 质 量 越 好 ， 


出 现 该 
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~> Zero Replacement 
A mice_pmm 

>é mice logreg.boot 
— mice cart 

A EM 

+ FIML 


平均 bias 


-0.014 


0.005 + 


0.000 - 


平均 bias 


-0.0104 


-0.0154 


0.0004 


平均 bias 


-0.010 


-0.015 


-0.0054 


-0.005 + 


H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20% L_30% 


条 件 _30 题 200 人 


vi 
1 ' 1 ' ñ ' 1 p ' 
H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20%L_30% 


条 件 _30 题 400A. 


+ : 
H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20%L_30% 


条 件 _ 30 题 1000 人 


方法 下 题目 参数 的 Bias (MAR 机 制 》 


> 


nm 


标 条 件 中 第 


30%). Zero Replacement 代表 零 蔡 换 法 ，mice-pmm, mice-logreg.boot, mice-cart 依次 代表 了 多 重 插 补 中 的 预测 均值 匹配 ， 基 于 


Bootstrap 的 贝 叶 斯 逻辑 


T 
T 


归 和 分 类 


个 字母 表示 题目 质量 CH: 


FP 等 质 


， 工 : RME), 


归 树 法 ，EM 代表 期 望 最 大 化 法 ，FIML 代表 了 全 息 极 大 似 然 估计 法 。 


外 二 个 数字 表示 缺失 对 


填补 方式 

合 - Zero Replacement 
mice_pmm 
mice_logreg.boot 
mice_cart 

EM 

FIML 


bd > x P 


填补 方式 

—— Zero Replacement 
mice pmm 

mice logreg.boot 
mice cart 

EM 

FIML 


bd > x 


填补 方式 

> Zero Replacement 
& mice_pmm 

>é mice_logreg.boot 
<> mice cart 

= EM 

可 FIML 


£(10%, 20%, 
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0.09 
> 0.08 " 
0.10 填补 方式 填补 方式 
“> Zero Replacement -> Zero Replacement 
w u 0.07 
加 AS mice pmm 2 Á mice pmm 
x mice_logreg.boot x >é mice_logreg.boot 
S oos = . logreg Fp 0.08 . logreg. 
BE <> mice cart BE <> mice cart 
<> EM 0.05 > EM 
如 FIML + FIML 
0.06 0.044 
—— a e — 0.03 EE O 
H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20%L_30% H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% 
条 件 _15 题 200A. 条 件 30 题 200A. 
0.08] 
0.094 填补 方式 填补 方式 
“> Zero Replacement 0.064 — Zero Replacement 
出 ul 
g 2S mice pmm g Æ mice pmm 
Œ 007 >é mice logreg.boot x >E mice_logreg.boot 
x Ç R à 
B- <> mice cart Ë- <> mice cart 
5> EM 0.04 = EM 
0.05 + FIML $ FIML 
; ' ' r r 1 r ' pide ' r ' ' r : ' r 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20% L_30% 
条 件 _15 题 400A 条 件 _30 题 400 人 
0.08 
填补 方式 | 填补 方式 
©- Zero Replacement -© Zero Replacement 
WwW W 
2 Á mice pmm 四 Á mice pmm 
ge] SE mice-logregboo. E 3€ mice Jogreg.boot 
EN ; R 0.04 z 
Ë- <> mice cart Ë- <>  mice_cart 
` EM ` EM 
0.044 $ FIML $ FIML 
0.02 
2 - - - r r r r 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% 
条 件 _15 题 1000 人 条 件 _30 题 1000 人 
图 2 不同 处 理 方法 下 题目 参数 的 RMSE (MAR 机 制 》 


(2) PCCR 估计 结果 与 讨论 


图 3 呈现 了 MAR 机 制 下 模式 判 准 率 的 估计 结果 ， 共 包含 324 个 条 件 。 随 着 被 试 和 题 


目 数量 的 增多 ， 题 目 质量 的 提高 和 缺失 率 的 降低 ， 各 方法 的 模式 判 准 率 均 会 增 大 。 


AMATUS. EMI FIML 表现 最 好 ， 其 后 依次 为 ML 和 ZR。 首 先 ，EM 法 的 PCCR 在 多 


数 条 件 下 最 高 ， 其 范围 为 0.144~0.855。FIML 和 EM 相似 ， 其 PCCR 的 范围 为 0.123~0.866。 
值得 注意 的 是 ，FIML 估计 PCCR 时 表现 较 好 ， 尽 管 它 在 估计 题目 参数 时 不 是 表现 最 好 的 


方法 ， 例 如 在 MAR 机 制 下 ，FIML 与 表现 最 佳 的 EM 法 之 间 的 Bias 差 值 最 大 仪 为 0.008， 


RMSE 差 值 最 大 仅 为 0.014， 尤 其 在 题目 数量 较 大 、 题 目 质量 较 高 时 ， 其 表现 尤 佳 。 且 


FIML 法 的 操作 比 EM 和 MI 法 更 加 便捷 ， 前 者 属于 “一 步 式 ”操作 ， 即 无 需 填 充 未 作答 数 
据 ， 仅 用 已 作答 数据 即 可 进行 参数 估计 ， 后 两 者 属于 “两 步 式 "操作 ， 需 要 先 将 缺失 数据 插 
补 出 来 ， 之 后 再 使 用 诊断 模型 进行 参数 估计 。 因 此 ， 出 于 便捷 性 考虑 ， 可 将 FIML 作为 首 


选 方法 。 其 次 ，MI 法 表现 


PCCR 的 范围 为 0.114~0. 


居中 ， 且 MI 系列 中 的 三 种 方法 的 PCCR 曲线 相似 度 也 较 高 ， 其 


838, ， 略 低 于 FIML 和 EM ik, 但 高 于 ZR (PCCR 范围 为 
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2 o 
D n 


模式 判 准 率 PCCR 


0.119~0.819) 。 


: - - - 
H_10%H_20%H_30%M_1 


~ u ~ ~ 
M_20%M_30% L_10% L_20% L_30% 


M_10%M 2 
条 件 _15 题 200 人 


模式 判 准 率 PCCR 


T + N - T T T ~ — 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% 


条 件 _15 题 400A. 


模式 判 准 率 PCCR 


H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% 


条 件 _15 题 1000 人 


3.4.2 MNAR 机 制 的 结果 与 讨论 


(1) 题目 参数 结果 和 讨论 


4 和 图 5 呈现 了 MNAR 机 制 不 同 条 伯 


图 3 不同 处 理 方法 下 题 


填补 方式 

—- Zero Replacement 
Å mice pmm 

3€ mice logreg.boot 
=> mice cat 

< EM 

+ FML 


填补 方式 

—- Zero Replacement 
xe mice pmm 

3€ mice_logreg boot 
> mice cat 

^» EM 

+ FML 


填补 方式 

— Zero Replacement 
Å mice pmm 

He mice logreg boot 
=> mice cart 

F EM 

19 FIML 


模式 判 准 率 PCCR 


模式 判 准 率 PCCR 


T - + + ~ - - — 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% 


条 件 _30 题 200A 


= ~ ~ ~ ~ ~ 
H_10%H_20%H_30%M_10%M_2090M_30% L, 


30 题 400 人 


- T T 
10% L 2096 L 3096 


”模式 判 准 率 PCCR 


H_10%H_20%H_30%M_10%M_20%M_30%L_1 
条 件 _30 题 _1000 人 


参数 的 PCCR (MAR 机 制 ) 


0% L_20% L_30% 


F 下 题目 参数 的 估计 结果 ， 共 包含 324 个 条 件 。 


填补 方式 

— Zero Replacement 
xe mice_pmm 

-* mice logreg boot 
<> mice cart 

37 EM 

c FIML 


填补 方式 

~~ Zero Replacement 
År mice pmm 

>€ mice_logreg boot 
合 mice cart 

Ay EM 

S FIML 


填补 方式 

— Zero Replacement 
ze mice pmm 

>€ mice logreg boot 
<> mice cart 

= EM 

c FIML 


随 被 试 和 题目 数量 的 增多 ， 题 目 质量 的 提高 和 缺失 率 的 降低 ， 各 方法 的 题目 参数 估计 精度 


均 在 提升 。 


Ej MAR 类 似 ，MNAR 机 制 下 题目 参数 的 Bias 绝对 值 和 RMSE 整体 较 低 ， 表 明 各 方法 
表现 均 较 好 。 其 中 ，EM 表现 最 好 ， 其 后 依次 为 ZR、MI 和 FIML。EM 倾向 于 高 估 题 目 参 
数 ， 其 Bias 分 布 范围 为 - 0.003~0.010，RMSE 分 布 范围 为 0.015-0.109, ZR 倾向 于 低估 题 


目 参 数 ， 其 Bias 分 布 范 围 为 - 0.011~ - 0.001, RMSE 分 布 范围 为 0.017~0.099。MI 倾向 于 


高 估 题 目 ， 其 Bias 分 布 范 围 为 - 0.0005~0.010, RMSE 分 布 范围 为 0.015~0.107。FIML til 


向 于 高 估 题 目 参数 ， 其 Bias 值 分 布 范 围 为 0.002~0.016，RMSE 分 布 范 围 为 0.014~0.115。 


结果 显示 : 首先 ， 与 MAR 机 制 相 比 ，MNAR 机 4 


i] F EM 和 MI 法 的 Bias 绝对 值 增 大 ，E 
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无 偏 估计 变 为 高 估 题 目 参 数 ，ZR 法 的 Bias 绝对 值 和 RMSE 变 小 ， 表 现 变 好 。 其 次 ，ZR 的 
表现 和 MI 相似 但 不 如 MI 稳定 ， 它 主要 受 题目 质量 的 影响 ， 例 如 ， 在 30 题目 400 人 、 低 
题目 质量 、 缺 失 率 为 30% 时 ，ZR 法 的 RMSE 在 所 有 方法 中 最 小 ， 而 相同 条 件 下 高 题目 质 


量 时 ，ZR 的 RMSE 在 所 有 方法 中 最 大 。 同 MAR 与 MCAR 机 


n 


BIS, EM 的 总 体 偏 差 较 小 ， 


表现 较 好 ， 且 随 着 被 试 量 的 增多 表现 变 得 更 好 。 这 也 和 前 文 的 结果 一 致 ， 题 目 质量 越 高 ， 
ZR 表现 越 差 ， 基 于 模型 的 方法 表现 越 好 。MI 系列 中 的 三 种 方法 的 表现 较为 相似 。 


0.0154 


0.0104 


平均 bias 


-0.005 


0.015 7 


0.010 


平均 bias 


-0.005 


-0.010 


0.014 


平均 bias 


-0.014 


0.0054 
0.0004 $&7— 


0.0054 
0004 F 


h + 1 r r T 
H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20%L_30% 


条 件 _15 题 200 人 


r ' 7 7 T r : r 7 
H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20%L_30% 


条 件 _15 题 400A. 


H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20%L_30% 


条 件 _15 题 1000 人 


图 4 不 同 


填补 方式 

~> Zero Replacement 
A mice pmm 

>< mice logreg.boot 
<> mice cart 

A EM 

+ FIML 


填补 方式 

“> Zero Replacement 
Æ mice pmm 

>< mice logreg.boot 
<> mice cart 

= EM 

+ FIML 


填补 方式 

— Zero Replacement 
> mice pmm 

>E mice logreg.boot 
- mice cart 

A EM 

+ FIML 


0.0104 


0.005 + 


平均 bias 


-0.005 4 


-0.010 4 


0.000 4 


H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20%L_30% 


条 件 _30 题 200 人 


0.0104 


0.005 4 


平均 bias 


0.000 + 


-0.005 4 


-0.0104 


0.0104 


0.005 4 


平均 bias 


-0.0054 


-0.0104 


H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20%L_30% 


条 件 _30 题 400A 


0.000 + 


处 理 方法 下 题 


H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20%L_30% 


条 件 _30 题 1000 人 


参数 的 Bias (MNAR 机 制 》 


填补 方式 

—— Zero Replacement 
Æ mice pmm 

>< mice logreg.boot 
<> mice cart 

AX EM 

+ FIML 


填补 方式 

> Zero Replacement 
全 mice pmm 

>< mice logreg.boot 
<> mice cart 

=> EM 

本 FIML 


填补 方式 

“> Zero Replacement 
Æ mice pmm 

>é mice logreg.boot 
<> mice cart 

A EM 

$ FIML 
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0.06 


T T T T T T T T T 
H_10%H_20%H_30%M_10%M_20%M_30%L_10%L_20%L_30% 


条 件 _15 题 200 人 


平均 RMSE 


: ' : : ' : : : ] 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% 
条 件 _15 题 400A 


平均 RMSE 
o 
8 


0.02 


"E T T T 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% 


条 件 _15 题 _ 1000 人 


图 5 不 同 处 理 方法 下 题目 


填补 方式 0.08 


-© Zero Replacement 


0.02 + 


Å mice pmm 加 
3X mice_logreg.boot Ë 
<> mice cart š 2067 
x EM 
如 FIML 
0.04 
0.08 
填补 方式 
“> Zero Replacement 
AS mice pmm 2 0.06 
>é mice logreg.boot oe 
<> mice cart É 
ay EM 0.04 
++ FML 
0.06 
填补 方式 
~> Zero Replacement 0.054 
Á mice pmm 2 
>é mice logregboot © 004 
<> mice cart Š 
` EM 0.03 
+ FIML 


(2) PCCR 的 结果 和 讨论 


数 


a 


图 6 呈现 了 在 MNAR 机 制 下 题目 


的 增多 ， 题 目 质量 的 提高 和 缺失 率 的 降低 ， 各 方法 的 模式 判 准 率 均 增 大 。 


H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% 


条 件 _ 30 题 200A 


: : : : ] : ' 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% 
条 件 _30 题 400 人 


参数 的 估计 结 


- - - - - 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% 
条 件 _30 题 1000 人 


参数 的 RMSE (MNAR 机 制 ) 


填补 方式 

-> Zero Replacement 
Å mice pmm 

HK mice logreg.boot 
<> mice cart 

=> EM 

+ FIML 


填补 方式 

— Zero Replacement 
Æ mice pmm 

>E mice logreg.boot 
<> mice cart 

A EM 

S FIML 


填补 方式 

-© Zero Replacement 
Á mice pmm 

HX mice logreg.boot 
<> mice cart 

= EM 

可 FIML 


， 共 包含 324 个 条 件 。 随 被 试 和 题目 


在 30 题 、1000 A. mam E] SARA 30%IN, PCCR 最 高 的 ZR 法 与 最 低 的 MI- 


LOGREG.BOOT 法 相差 0.134， 因 此 ， 与 题目 


参数 的 估计 不 同 ， 估 计 被 试 KS 时 ， 各 方法 间 


的 差异 较 大 。 具 体 而 言 ，EM、FIML 和 ZR 并 列 为 表现 最 好 的 方法 ，MI 次 之 。 其 中 ，EM 


ae 


去 的 PCCR 范围 为 0.128-0.857, FIML 的 范围 为 0.121~0.870，ZR 的 范围 为 0.111~0.863 。 
MI 和 另 三 种 方法 相 比 表现 略 差 但 差异 不 明显 ， 其 PCCR Z 


题目 参数 和 PCCR 的 结果 ， 相 较 于 MAR 和 MCAR 机 制 ，ZR 在 MNAR 机 


围 为 0.105~0.843。 首 先 ， 综 合 


H| PEL a, 


这 一 现象 的 原因 可 能 是 : MNAR 机 制 下 ， 缺 失 数据 对 应 的 原始 作答 为 "0”《〈 即 答 错 ) 的 可 


能 性 更 高 ， 即 认为 缺失 的 产生 是 


日 于 被 试 无 法 作答 ， 


与 被 试 的 知识 掌握 状态 有 关 ; 而 ZR 


方法 正好 使 用 “0” 蔡 换 缺 失 值 ， 同 样 将 缺失 看 作 是 由 于 被 试 不 会 作答 产生 的 。 因 此 ， 使 用 


“0” 蔡 换 缺 失 数据 的 ZR 法 正 符合 MNAR 的 人 


RA REE, ZR 法 在 MNAR 机 制 下 的 表现 更 好 。 
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其 次 ， 与 MAR 机 制 类 似 ， 几 乎 在 所 有 条 件 下 ，MI 的 系列 方法 对 被 试 KS 和 题目 参数 估计 


结果 均 较 为 相似 ， 这 是 因为 MI 系列 方法 均 基 于 MI 框架 进行 缺失 数据 插 补 。 


+ + T T- T T T T a 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L_20% L_30% 


条 件 30 题 200A. 


: ' ， : : : ] : ' 
H_10%H_20%H_30%M_10%M_20%M_30% L_10% L_20% L_30% 


条 件 _30 题 400 人 


M 0.8 
i x 
" 填补 方式 m 
8 合 - Zero Replacement 8 06 
a , a 
Bo AS mice pmm [a 
- >< mice logregboot — 3 
EN š EN 
da <> mice cart H oa 
a = EM E: 
" + FIML 
0.2 
0.64 
E: 
- 填补 方式 g" 
O ~> Zero Replacement O 
Ë > mice pmm r1 
0.4 
w >< mice_logreg.boot E 
Ë $5051 
i <> mice cart 条 
HK 0.3] =F EM zm 
$ FIML 
02 0.3 
v 
i : T r : í r ; 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L 2096 L 3096 
条 件 _15 题 400A. 
0.6 0.84 
x 
" 填补 方式 m 
Qos -© Zero Replacement © 
Ë A> mice pmm Ë 06 
Bo4 >< mice logregboot $ 
Ë <> mice cart En 
LIT Av EM a 
E FIML oT 
0.2 


- - - 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L 2096 L 3096 


á& 1588 1000 人 


图 6 不 同 处 理 方法 下 题目 参数 的 了 


4 实证 研究 
4.1 研究 数据 


- - - 
H_10%H_20%H_30%M_10%M_20%M_30%L_10% L 2096L 3096 


条 件 _ 30 题 1000 人 


CCR (MNAR 机 制 ) 


填补 方式 

-C- Zero Replacement 
Á mice pmm 

HX mice logreg.boot 
<> mice cart 

— EM 

+ FIML 


填补 方式 

-© Zero Replacement 
As mice pmm 

>< mice logreg.boot 
<> mice cart 

Av EM 

可 FIML 


填补 方式 

-© Zero Replacement 
As mice pmm 

HX mice logreg.boot 
<> mice cart 

= EM 

可 FIML 


为 进一步 探讨 不 同 缺失 值 处 理 方法 的 生态 效 度 ， 本 研究 参考 Shan 和 Wang(2020) 的 实 


证 研究 ， 使 用 了 PISA2015 年 基于 计算 机 测评 的 数学 测验 数据 作为 实说 


全 缺失 比例 合适 ， 能 够 展现 出 不 同 缺失 值 处 理 方法 之 间 的 差异 。 若 缺失 率 较 小 ， 不 同 缺失 
值 处 理 方法 得 到 的 效果 可 能 差异 不 会 很 明显 ;缺失 率 较 大 时 《如 30%) ， 所 有 的 缺失 值 处 
包 具 备 已 标定 好 的 Q 矩阵 。 久 属于 大 型 


理 方法 均 表 现 较 差 ， 此 时 的 比较 也 没有 任何 意义 。 


测验 ， 结 果 可 靠 。 数 据 包含 了 九 道 题目 ， 这 些 题 目 在 PISA2015 中 的 题 号 分 别 为 


CM033Q01, CM474Q01, CM155Q01, CM155Q04, CM411Q01, CM411Q02, CM803Q01, 


CM442Q02 和 CM034Q01， 题 目 作 答 结果 均 为 二 分 变量 。 这 些 题目 共 考 察 了 四 个 属性 : 区 


别 与 联系 (&1)、 数 量 (gs)、 空 间 与 形状 (gs) 和 不 定 怕 


ui 


FE 与 数据 (gy)。 实 证 Q H 


EKS% f Shan 和 


Wang(2020) 的 研究 ， 参 见 附录 四 。 本 研究 选择 了 多 米 尼 加 共和 国 的 735 名 被 试 进行 分 析 ， 
被 试 作答 结果 中 ，0 表示 作答 错误 ，1 表示 作答 正确 ，5~9 表示 作答 缺失 。 该 数据 集 的 缺失 
比率 在 各 题目 上 的 分 布 从 0~24.08% 不 等 ， 总 缺失 率 为 14.02%， 缺 失 比例 适中 。 使 用 模拟 
研究 中 的 六 种 方法 对 该 数据 集中 的 缺失 数据 进行 处 理 ， 并 采用 GDINA 模型 进行 估计 。 
4.2 评价 指标 

由 于 实证 数据 中 的 KS 和 题目 参数 真 值 未 知 ， 无 法 使 用 模拟 研究 的 评价 指标 ， 因 此 ， 
采用 以 下 几 个 评价 指标 : 1) 相对 拟 合 指标 : 偏差 (Deviance)、 赤 池 信 息 准则 (Akaike 


information Criterion, AIC; Akaike, 1974) 和 贝 叶 斯 信息 准则 (Bayesian information criterion, 


BIC; Schwarz, 1978). 2) 绝对 拟 合 指标 : Limited-information statistic M2 和 root mean square 


error of approximation (RMSEA»)(Liu et al., 2016). 3) 其 他 指标 : 题目 参数 估计 标准 误 


(Standard Error, SE) 和 相关 性 (Correlation, Cor). 
各 指标 中 ，Deviance、AIC 和 BIC 值 越 小 ， 数 据 与 模型 拟 合 效果 越 佳 ， 表 明 经 该 方法 
处 理 的 缺失 值 效果 更 好 。M, 和 RMSEAs 都 是 衡量 模型 与 数据 的 拟 合 程度 的 指标 ， 这 两 个 指 
T 标 越 小 ， 表 明 模型 拟 合 结果 越 好 。 此 外 ， 对 于 RMSEA2，Liu 等 (2016) 认 为 ，0.045 是 模型 


T 良好 拟 合 的 标准 ，0.03 是 最 佳 拟 合 的 标准 。SE 指 模型 估计 所 得 题目 参数 的 标准 误 ，SE 越 


e 小 ， 表 明 题 目 参数 估计 结果 的 离散 程度 越 小 ， 数 据 越 稳定 。 在 估计 SE 时 ， 采 用 不 同 的 信 
a 息 和 矩阵 会 得 到 不 同 精度 的 结果 (Liu et al., 2021)。 本 研究 采用 GDINA 包 中 的 经 验 交 又 相 乘 方 


法 计算 SE， 该 方法 的 优点 是 操作 便捷 ， 且 估计 参数 时 表现 较 好 ， 在 CDM 研究 中 也 较 常 使 


FA (De la Torre, J, 2009; Najera et al., 2021; Xu et al., 2020)。 相 关 性 指 被 试 在 测验 上 的 原始 
得 分 与 其 估计 的 属性 掌握 数量 之 间 的 相关 性 ， 该 指标 的 原理 是 ， 被 试 属性 掌握 数量 越 多 ， 
其 原始 得 分 理应 越 高 ( 郭 和 大, 周文 杰 , 2021)。 使 用 某 一 种 方法 对 缺失 值 进行 处 理 后 ， 得 到 的 
相关 性 指标 越 高 ， 说 明 缺 失 值 处 理 效果 越 好 。 
4.2 实证 研究 结果 与 讨论 

实证 研究 估计 得 到 的 各 指标 结果 如 表 1 〈 相 关 性 和 相对 拟 合 指标 ) 和 表 2 绝对 拟 合 指 
bx) 所 示 。 就 相关 性 指标 而 言 ，EM 的 相关 性 最 高 ， 为 0.809， 表 明 这 种 方法 处 理 缺 失 数据 
的 效果 最 佳 ， 其 次 是 FIML 和 ZR 法 ， 相 关 性 分 别 为 0.808 和 0.804， 但 它们 的 相关 性 仅 略 
低 于 EM， 表 明和 它们 处 理 缺 失 数据 的 效果 基本 相似 ; 之 后 依次 为 MI-LOGREG.BOOT、MI- 


PMM 和 MI-CART， 相 关 性 分 别 为 0.800. 0.793 和 0.756. Deviance 分 布 范围 为 


4169.45~4633.08, AIC 分 布 范围 为 4235.45~4694.79，BIC 分 布 范 围 为 4387.25~4846.59。 其 


H, FML 的 Deviance. AIC 和 BIC 值 均 最 小 ， 表 明 拟 合 效果 最 好 ， 之 后 依次 是 MI- 


LOGREG.BOOT, EM, ZR. MI-CART 和 MI-PMM iX. SE 指标 分 布 范 


围 为 0.243~0.268， 


其 中 MI-PMM 法 的 SE 最 小 ， 之 后 依次 是 ZR. EM. FML, MI-LOGREG.BOOT 和 MI- 


CART 法 ， 表 明 MI-PMM 的 题目 


MI-PMM 的 RMSEA; 均 小 于 


参数 估计 稳定 性 


和 MI-PMM 的 M» fB ËJ p 值 均 大 于 .05， 表 明 对 这 批 实说 


H “d” 


表现 最 好 。 在 绝对 拟 合 指标 中 ，EM、ZR 
E 数 据 的 拟 合 效 果 较 好 ; EM、ZR 和 
F 0.03 ， 表 明 其 拟 合 效果 更 佳 。 
综合 各 项 指标 《选取 了 每 项 指标 上 表现 最 好 的 三 种 方法 ， 月 
方法 得 到 “w ”的 总 数 和 排名 〉， 如 表 3 所 示 。 在 各 个 指标 的 表现 上 ， 
PMM 三 者 均 在 某 一 个 或 多 个 指标 上 表现 最 好 。 从 表 3 汇总 


表示 ， 


并 呈现 了 各 


EM. FIML. MI- 


结果 看 ，EM 在 所 有 指标 上 表现 


均 较 好 ， 是 最 佳 选择 。ZR 和 FIML 方法 次 之 ， 然 后 为 MLPMM、LOGREG.BOOT 和 MI- 


CART， 该 结果 与 NMAR Bl! 


到 的 结果 很 相似 。PISA 作为 大 型 国际 测验 ， 


测验 的 可 能 性 较 小 ，! 


判 下 的 实验 结果 类 似 。 实 证 下 


接近 MNAR 机 制 


于 不 会 作答 而 放弃 造成 作答 缺失 的 可 能 怕 
较 好 的 原因 之 一 。 同 时 这 也 与 Shan 和 Wang(2020)If]f 


看 的 缺失 数据 机 制 的 CDM 对 阿尔 巴 尼 亚 


= 


究 与 模拟 研究 的 MNAR 机 制 


上 分 受到 重视 ， 被 试 由 了 


FEATS oA A S| A 3 H Jë 


国 的 数据 进行 分 析 ， 发 现 数据 的 缺失 机 制 更 


个 人 或 环境 原因 退出 


FE 较 大 ， 这 也 是 ZR 法 表现 


Z 


。 此 外 ，MI 系 列 方法 在 模拟 研究 中 表现 相似 ， 但 在 实证 研究 中 差异 较 大 ， 


说 明 选 用 MI 系列 方法 时 需要 结合 实际 数据 进行 模型 拟 合 验证 ， 并 根据 拟 合 结果 进行 选择 。 


综 上 ， 实 证 研究 进一步 支持 了 模拟 和 


究 结果， 所 探讨 的 缺失 数据 处 理 方法 具有 较 高 的 


生态 效 度 。 
表 1 实证 研究 结果 1 
参考 指标 
Cor Deviance (-2LL) AIC BIC SE 
ZR 0.804 4345.98 4411.98 4563.77 0.256 
MI-PMM 0.793 4633.08 4648.78 4800.58 0.243 
MI-LOGREG.BOOT 0.800 4170.47 4347.45 4499.24 0.263 
MI-CART 0.756 4628.56 4694.79 4846.59 0.268 
EM 0.809 4343.13 4409.13 4560.93 0.258 
FIML 0.808 4169.45 4235.45 4387.25 0.260 
d 2 实证 研究 结果 2 
、、 绝对 拟 合 指标 
处 理 方法 “= 
M2 df p RMSEA2 90%CI 
ZR 16.69 12 0.162 0.023 [0,0.047] 
MI-PMM 13.81 12 0.313 0.014 [0,0.042] 
MI-LOGREG.BOOT 22.54 12 0.032 0.035 [0.01,0.056] 
MI-CART 22.14 12 0.036 0.034 [0.009,0.056] 


EM 17.19 12 0.143 0.024 [0,0.048] 
FIML 22.64 12 0.031 0.035 [0.01,0.057] 


表 3 实证 研究 结果 汇总 


参考 指标 w 的 总 数 排序 
处 理 方 法 
Cor -2LL AIC BIC SE p RMESA; 
ZR v v v v 4 2 
MI-PMM v v v 3 3 
MI-LOGREG.BOOT v v v 3 3 
MI-CART 0 4 
EM v v v v v v v 7 1 
FIML v v v v 4 2 
5 结论 与 展望 


5.1 研究 结论 

(1) 缺失 数据 会 对 认 知 诊断 估计 产生 影响 ， 缺 失 率 的 增 大 会 导致 所 有 方法 的 PCCR 和 
题目 参数 估计 精度 下 降 。 此 外 ， 随 着 被 试 与 题目 数量 的 减少 和 题目 质量 的 下 降 ， 所 有 方法 
的 PCCR SY FRE, Bias 绝对 值 和 RMSE 均 上 升 ， 表 现 变 差 。 

(2) 整体 而 言 ， 所 有 方法 都 能 得 到 较为 精确 的 题目 参数 估计 值 ， 不 同方 法 间 差 异 不 大 。 


其 中 ， 在 MAR/MCAR 机 制 下 ，EM 的 表现 最 好 ， 其 后 依次 为 MI、FIML 和 ZR 法 ; 在 


MNAR 机 制 下 ，EM 表现 最 好 ， 其 后 依次 为 ZR、MI 和 FIML。 


(3) 估计 被 试 KS 时 ， 不 同方 法 间 PCCR 差异 较 大 。MAR/MCAR 机 制 下 ，EM 和 


FIML 表现 最 好 ， 其 后 依次 为 MI 和 ZR; MNAR 机 制 下 ，EM、FIML 和 ZR 并 列表 现 最 好 ， 


MI 次 之 。 
5.2 方法 选择 建议 

综合 模拟 与 实证 研究 结果 ， 本 研究 建议 首选 EM 或 FIML 方法 。 各 方法 中 ，EM 在 各 个 
指标 上 均 表 现 较 好 ， 是 最 推荐 的 方法 。 但 EM 需要 先 插 补 后 估计 ， 而 FIML 无 需 插 补 便 可 
fiit, H FIML 得 到 的 PCCR 也 较 高 ， 尽 管 FIML 在 估计 题目 参数 时 表现 不 如 其 它 基 于 模 
型 的 方法 ， 但 仅 是 相对 而 言 ， 其 Bias 绝对 值 和 RMSE 也 均 较 小 ， 且 与 同 条 件 下 EM 的 表现 
差异 很 小 。 因 此 ， 若 出 于 一 步 到 位 的 处 理 角 度 来 看 ， 可 以 优先 考虑 使 用 FIML 进行 缺失 数 
据 处 理 。 同 时 ， 在 缺失 机 制 为 MAR 或 者 MCAR ， 以 及 测验 长 度 较 短 情况 下 ， 研 究 者 应 避 
免 使 用 ZR 法 处 理 缺 失 值 。 
5.3 研究 局 限 及 展望 

本 研究 将 目前 表现 效果 更 好 的 基于 模型 的 缺失 数据 处 理 方法 引入 CDA 中 ， 对 不 同 的 


缺失 数据 处 理 方法 进行 全 面 比较 ， 并 提出 了 实践 中 处 理 缺 失 数据 的 建议 。 但 仍 有 一 些 局 限 ， 
如 本 研究 仅 关 注 了 0-1 计 分 测验 形式 ， 未 考虑 多 级 计 分 情况 ， 而 多 级 计 分 在 现实 中 也 很 常 

且 能 提供 更 加 丰富 的 作答 信息 。 未 来 研究 可 以 在 多 级 计 分 测验 中 ， 探 究 不 同 缺失 数据 
处 理 方式 对 估计 结果 的 影响 。 其 次 ， 近 年 来 纵向 CDA 受到 了 研究 者 们 的 关注 (Zhang & 
Wang, 2018; Kaya & Leita, 2017)， 且 纵向 CDA 中 也 存在 数据 缺失 问题 ， 因 此 ， 如 何 处 理 纵 
向 CDA 中 的 缺失 数据 值得 进一步 探究 。 此 外 ， 本 研究 使 用 了 经 验 交 叉 相 乘法 计算 实证 数 
据 的 题目 参数 标准 误 。 但 一 些 研 究 指出 在 估计 题目 参数 标准 误 时 ， 观 察 信息 矩阵 及 三 明治 
半 息 矩阵 也 是 常用 且 有 效 的 方法 〈 刘 彦 楼 等 , 2016; Liu et al., 2019) 。 因 此 ， 在 后 续 研 究 中 
可 以 在 缺失 值 领域 进一步 对 比 三 种 信息 和 矩阵 的 表现 ， 选 取 更 适合 的 方法 计算 标准 误 。 最 后 ， 
本 研究 虽然 对 三 种 缺失 机 制 分 别 进行 了 分 析 ， 但 实际 测验 中 数据 的 缺失 机 制 往往 不 明确 ， 
未 来 研究 可 以 进一步 结合 包含 缺失 机 制 判定 的 CDM(Shan & Wang, 2020)， 研 究 实际 测验 情 


境 下 的 缺失 数据 处 理 模型 。 
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Abstract 

The problem of missing data is common in research, and there is no exception for cognitive 
diagnostic assessment (CDA). Some studies have revealed that both the presence of missing 
values and the selection of different missing data processing methods would affect the results of 
CDA. Therefore, it is necessary to attach more attention to the problem in CDA and choose 
appropriate methods to deal with it. Although the problem in CDA has been explored before, 
previous studies did not consider multiple imputation (MI) and full information maximum 
likelihood (FIML), which are widely used in the field of missing data analysis. Moreover, 
previous studies neglected the comparison using empirical data and saturation models such as 
GDINA model. In summary, the main purpose of this study are to introduce MI and FIML into 
CDA, thus making a comprehensive comparison of different missing data handling methods, and 
further putting forward suggestions for handling missing data in practice. 

Simulation study considered six factors: (1) Sample size: 200 participants, 400 participants, 
and 1000 participants; (2) Test length: 15 test items and 30 test items; (3) Quality of items: high 
quality, medium quality, and low quality; (4) Missing data mechanisms: missing completely at 
random (MCAR), missing at random (MAR), and missing not at random (MNAR); (5) Missing 
rate: 10%, 20%, and 30%; (6) Missing data handling methods: zero replacement (ZR), MI-CART, 
MI-PMM, MI-LOGREG.BOOT, Expectation-Maximization algorithm (EM), and FIML. The 
GDINA model was used, and the analysis process was realized by the GDINA package in R 
software. Secondly, the PISA 2015 computer-based mathematics data were applied to compare the 
practical value of the proposed methods. 


The results of simulation study revealed that: (1) Missing data results in a decrease in 


estimation accuracy. The absolute value of Bias and RMSE both increased and PCCR values of all 
methods decreased as the sample size, test length and the quality of the items decreased and the 
missing rate increased; (2) When estimating item parameters, EM performed best, followed by MI. 
Meanwhile, FIML and ZR methods were unstable; (3) When estimating the KS of participants, 
EM and FIML performed best as the missing data mechanism was MAR or MCAR. When the 
missing data mechanism was MNAR, EM, FIML and ZR performed best. The empirical study 
results further supported the simulation research results. It showed that: (1) For all empirical 
indicators, EM, FIML, and MI-PMM perform best on one or more indicators; (2) The results 
obtained under the empirical study and simulation study under the MNAR mechanism are very 
similar; (3) EM performs well on all indicators, and ZR and FIML methods are slightly worse than 
EM, followed by MI-PMM, LOGREG.BOOT and MI-CART. 

In addition, based on the research results, the following suggestions were provided: (1) EM 
and FIML should be the first choice. However, if researchers do not want to get the complete data 
set, FIML could be used as a priority for missing data handling; (2) When the missing data 
mechanism was MAR or MCAR and the test length was not enough, researchers should avoid 
using the ZR method to deal with missing data. Finally, this paper ends with the prospects of 
future researches: (1) The multilevel scoring situation should also be studied; (2) The effectiveness 
of these methods should be tested in longitudinal research; (3) The performance of more methods 
of information matrix can be further compared in calculating the standard error to handle missing 
data; (4) Future research could focus on the missing mechanisms of data onto the real data. 
Keywords cognitive diagnosis, GDINA model, missing data, multiple imputation, maximum 
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附录 二 生成 缺失 数据 的 具体 步骤 

MCAR 机 制 的 数据 与 其 他 因素 均 无 关 。 首 先 ， 将 该 条 件 下 的 总 缺失 率 (如 0.1，0.2 或 
0.3) 设 为 每 个 被 试 在 每 道 题目 上 的 目标 缺失 率 。 然 后 ， 对 每 个 被 试 的 每 一 个 作答 ， 都 会 生 
成 一 个 服从 均匀 分 布 (0,12 的 值 ， 并 将 其 与 被 试 的 目标 缺失 率 进 行 比较 。 若 这 一 数值 小 
于 等 于 目标 缺失 率 ， 将 当前 作答 蔡 换 为 缺失 ， 反 之 则 保留 原始 作答 结果 。 

MAR 机 制 下 缺失 数据 与 已 观测 到 的 变量 有 关 ， 而 与 产生 缺失 的 变量 本 身 无 关 。 首 先 ， 
为 每 个 被 试 生成 一 个 服从 标准 正 态 分 布 Y〈0,1) 的 代理 变量 ， 这 个 变量 在 现实 情景 中 可 能 
是 能 力 、 年 龄 、 学 习 程度 等 ， 是 对 缺失 可 能 性 造成 影响 的 个 体 变量 。 一 般 情况 下 被 试 的 代 
理 变量 值 越 大 ， 在 茶道 题目 上 的 目标 缺失 率 就 越 低 。 其 次 ， 根 据 生成 的 代理 变量 将 被 试 划 
分 为 六 个 分 数 段 ， 为 每 个 分 数 段 的 被 试 分 配 相 应 的 目标 缺失 率 ， 保 证 代理 变量 得 分 越 大 ， 
目标 缺失 率 越 小 。 且 使 所 有 目标 缺失 率 的 平均 值 等 于 该 条 件 的 总 缺失 率 《〈 即 0.1、0.2 或 
0.3) 。 对 每 个 被 试 的 每 一 个 作答 ， 再 生成 一 个 服从 均匀 分 布 0 (0,1) 的 值 ， 并 将 其 与 被 试 
的 目标 缺失 率 进 行 比 较 。 若 其 小 于 目标 缺失 率 ， 将 当前 作答 蔡 换 为 缺失 ， 反 之 不 进行 处 理 ， 
保留 原始 作答 结果 。 

MNAR 机 制 下 缺失 数据 与 缺失 前 被 试 是 否 能 正确 作答 该 题目 有 关 ， 而 与 其 他 条 件 无 关 。 
在 完整 数据 基础 上 ， 为 每 个 作答 分 配 目标 缺失 率 ， 原 始 数据 中 的 错误 作答 有 更 高 的 目标 缺 
失 率 ， 正 确 作答 的 被 试 则 有 更 低 的 目标 缺失 率 。 并 使 所 有 题目 的 目标 缺失 率 的 均值 等 于 i 
条 件 下 的 总 缺失 率 〈 即 0.1、0.2 或 03) 。 例 如 ， 以 一 个 包含 十 位 被 试 的 数据 集 为 例 ， 如 果 
在 完整 数据 中 有 五 位 被 试 对 目标 题目 作答 正确 ， 五 位 被 试 作答 错误 ， 该 条 件 下 缺失 率 为 
0.15， 我 们 向 五 位 作答 错误 的 被 试 分 配 0.10 的 缺失 率 ， 向 五 位 作答 正确 的 被 试 分 配 0.20 的 
缺失 率 。 对 于 每 一 个 被 试 的 每 一 个 作答 ， 都 会 生成 一 个 服从 均匀 分 布 0 (0,1)〉 的 值 ， 并 将 
其 与 被 试 的 作答 缺失 率 进 行 比 较 。 若 均值 小 于 缺失 率 ， 将 当前 作答 蔡 换 为 缺失 ， 反 之 不 进 
行 处 理 ， 保 留 原始 作答 结果 。 
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附录 三 五 属性 条 件 下 MCAR 机 制 的 结果 
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图 2 不 同 处 理 方法 下 题目 参数 的 RMSE (MCAR 机 制 ) 
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性 @M033Q01 CM474Q01 — CM155Q01 CMI55Q04 — CM4IIQOI CM411Q02 CM803Q01  CM442Q02 — CMO034Q01 
n 0 0 1 1 0 0 0 0 0 

a 1 0 0 0 0 0 0 0 1 

as 0 1 0 0 1 0 0 1 0 

Qa 0 0 0 0 0 1 1 0 0 
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